Embedded Arabic text detection and recognition in videos. (Détection et reconnaissance de texte Arabe incrusté dans les vidéos)
نویسنده
چکیده
This thesis focuses on Arabic embedded text detection and recognition in videos. Different approaches robust to Arabic text variability (fonts, scales, sizes, etc.) as well as to environmental and acquisition condition challenges (contrasts, degradation, complex background, etc.) are proposed. We introduce different machine learning-based solutions for robust text detection without relying on any pre-processing. The first method is based on Convolutional Neural Networks (ConvNet) while the others use a specific boosting cascade to select relevant hand-crafted text features. For the text recognition, our methodology is segmentation-free. Text images are transformed into sequences of features using a multi-scale scanning scheme. Standing out from the dominant methodology of hand-crafted features, we propose to learn relevant text representations from data using different deep learning methods, namely Deep AutoEncoders, ConvNets and unsupervised learning models. Each one leads to a specific OCR (Optical Character Recognition) solution. Sequence labeling is performed without any prior segmentation using a recurrent connectionist learning model. Proposed solutions are compared to other methods based on non-connectionist and hand-crafted features. In addition, we propose to enhance the recognition results using Recurrent Neural Network-based language models that are able to capture long-range linguistic dependencies. Both OCR and language model probabilities are incorporated in a joint decoding scheme where additional hyper-parameters are introduced to boost recognition results and reduce the response time. Given the lack of public multimedia Arabic datasets, we propose novel annotated datasets issued from Arabic videos. The OCR dataset, called ALIF, is publicly available for research purposes. To the best of our knowledge, it is the first public dataset dedicated for Arabic video OCR. Our proposed solutions were extensively evaluated. Obtained results highlight the genericity and the efficiency of our approaches, reaching a word recognition rate of 88.63% on the ALIF dataset and outperforming well-known commercial OCR engine by more than 36%.
منابع مشابه
Détection et reconnaissance de texte dans les documents vidéos. Et leurs apports à la reconnaissance de personnes
This article presents the different steps used to recognize characters for multi-modal person recognition systems in video (ANR REPRE challenge). Text detection is achieved by a technique based on the text features (texture, color, contrast, geometry, temporal information, measure of accumulated gradients). The text recognition is then performed by the free software Google Tesseract. The method...
متن کاملOutils pour la recherche d'extraits pertinents dans les séquences vidéo. Applications aux retransmissions télévisées de matchs de football
Here we are concerned by on line multimedia data indexing by use of pertinent sample searching. Our work focuses on video sequence analysis in order to detect some predefined events. We propose an architecture and some tools, both generic, for building specific indexing systems. In particular, we deal with the following problems: data temporal segmentation, background and foreground separation,...
متن کاملExtraction de mots clefs dans des vidéos Web par Analyse Latente de Dirichlet (LDA-based tagging of Web videos) [in French]
RÉSUMÉ Cet article présente une méthode d’étiquetage de vidéos collectées sur une plate-forme de partage de vidéos. Cette méthode combine un système de reconnaissance de la parole, qui extrait les contenus parlés des vidéos, et un module d’extraction de mots-clefs opérant sur les transcriptions automatiques. La difficulté majeure, dans cette caractérisation de vidéos par un ensemble de mots-cle...
متن کاملDétection et regroupement automatique de style d'écriture dans un texte
Résumé. La détection de plagiat extrinsèque devient vite inefficace lorsque l’on n’a pas accès aux documents potentiellement sources du plagiat ou lorsque l’on se confronte à un espace aussi vaste que le Web, ce qui est souvent le cas dans les logiciels anti-plagiat actuels. Dès lors la détection intrinsèque devient nettement plus efficace. Dans cet article, nous traitons justement de la détect...
متن کاملARABASE : base de données Web pour l'exploitation en reconnaissance optique de l'écriture arabe
Nous proposons dans ce travail ARABASE une base de données d’images d’échantillons d’écriture arabe pour l’exploitation en reconnaissance optique de l’écriture (OCR-Optical Character Recognition). Cette base est implémentée sur un réseau à longue distance. L’étude des particularités morphologiques de l’écriture arabe, dans sa forme imprimée et manuscrite (en ligne et hors ligne), et les différe...
متن کامل